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Beschreibung 

Sprachverarbeitungssystem und Verfahren zur Sprachverarbei- 
tung 

5 

In iiblichen Sprachverarbeitungssystemen beispielsweise far 
telefonbasierte Anwendungen werden verschiedenste Moglichkei- 
ten der sprachlichen Eingabe und Ausgabe angeboten. Dies 
reicht von der Erkennung von einzeln gesprochenen Ziffern und 
10 einer meist begrenzten Anzahl von Kommandowortern bis zur 

Eingabemoglichkeit flieBend gesprochener AuBerungen. Die Aus- 
gabemoglichkeiten reichen vom Ausgeben komplett auf genommener 
AuBerungen bis zu rein synthetisch erzeugter akustischer Aus- 
gabe von Texten aus beispielsweise abgespeicherten Phonemen. 

15 

Anwendungen von Sprachverarbeitungssystemen im industriellen, 
offentlichen sowie im privaten Bereich sind mit sehr unter- 
schiedlichen Anf orderungen sowohl an die Spracheingabe als 
auch an die Sprachausgabe konf rontiert . Dies ist bedingt 
2 0 durch die Vielfalt der Anwendungsmoglichkeiten und der damit 
von den Sprachverarbeitungssystemen zu losenden sprachlichen 
Auf gaben . 

Dies gilt ebenso fur Sprachdialogsysteme, bei denen das 
Sprachverarbeitungssystem mit dem Benutzer des Sprachverar- 
beitungssystems in einem beliebig ausgestalteten Dialog 
steht . 

Bei einer Anwendung im Bereich von Sprachverarbeitungssyste- 
30 men kann es beispielsweise erforderlich sein, daB zu einem 

Zeitpunkt vom Benutzer eine Ziffer einzeln abgefragt wird, zu 
einem anderen Zeitpunkt innerhalb desselben Dialoges aber von 
dem Benutzer ein Datum eingegeben werden kann und vom Sprach- 
verarbeitungssystem verarbeitet werden soil. 

35 

Ebenso kann bei der Ausgabe an einer Stelle die Ausgabe einer 
Sprachkonserve ausreichend sein, wahrend an anderer Stelle 
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eines Anwendungsszenarios durch die hohe Variabilitat des 
auszugebenden Textes eine Sprachsynthese geeigneter ist. 

Desweiteren konnen zu verschiedenen Zeitpunkten verschiedene 
Leistungsmerkmale von Spracherkennern vom Betreiber als er- 
forderlich erachtet werden, wie z. B. die Unterbrechbarkeit 
der Systemausgabe wtins.chensw.ert sein kann, wohingegen an an- 
derer S telle jedoch der Benutzer die Ausgabe vollstandig an- 
horen sollte . 



Urn eine moglichst effiziente Verwendung der spezialisierten, 
bekannten Algorithmen zur Spracherkennung und zur Sprachaus- 
gabe und auch Sprachdialogsysteme mit komplexeren Erken- 
nungseigenschaften und Ausgabeeigenschaf ten als beispielswei- 
15 se zur einfachen Zif f ernerkennung oder nur zur isolierten Er- 
kennung von einer kleinen Anzahl von Kommandowortern, war es 
bisher ublich, die Systeme in einer Weise zu erstellen, dafi 
durch die besondere Auswahl von technischen Methoden und spe- 
zifischen sof twaretechnischen MaJinahmen den spezifischen An- 
forderungen an die Spracherkennung bzw. an die Sprachausgabe 
Rechnung getragen wurde. 



Dies erfordert jedoch einen groiien personellen Aufwand von 
Experten, die fiir jede neue Anwendungs situation in der Regel 
25 neu zu erbringen ist. Durch diese Vorgehensweise wird eine 

effiziente wirtschaf tliche Nutzung von Sprachverarbeitungssy- 
stemen erheblich behindert. 



Im Telefonbereich existieren Dialogsysteme, bei denen eine 
Auswahl beispielsweise uber sog. DTMF-Tone und einfache Nen- 
nung von Ziffern oder einiger, weniger vorgegebener Komando- 
worte erfolgt. 
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Jedoch ist der Aufwand ftir eine neue Entwicklung eines 
Sprachverarbeitungssystems bzw. eines Sprachdialogsystems mit 
den bisherigen Verfahren und Systemen sehr aufwendig. 



Somit liegt der Erfindung das Problem zugrunde, ein Sprach- 
verarbeitungssystem sowie ein Verfahren zur Sprachverarbei- 
tung anzugeben, mit dem eine optimale, kontextangepafite Nut- 
zung von Spracherkennungsmodulen und/oder Sprachausgabemodu- 
len unter Verminderung benotigter Rechenkapazitat erreicht 
wird. 

Das Problem wird durch das Sprachverarbeitungssystem gemafl 
Patentanspruch 1 sowie durch das Verfahren gemafl Patentan- 
spruch 8 gelost. 

Das Sprachverarbeitungssystem weist mehrere Spracherkennungs- 
module und/oder Sprachausgabemodule auf, die jeweils fUr eine 
vorgebbare Art einer Spracherkennung bzw. einer Sprachausgabe 
vorgesehen sind. Ferner weist das Sprachverarbeitungssystem 
ein Mittel zur Auswahl eines Spracherkennungsmoduls und/oder 
Sprachausgabemoduls auf. Durch das Mittel wird abhangig von 
einem Eingabesignal, welches dem Mittel zugeftlhrt wird, das 
jeweilige Spracherkennungsmodul bzw. Sprachausgabemodul aus- 
gewahlt, aktiviert und das entsprechende Sprachsignal bzw. 
die erforderlichen Parameter werden dem jeweiligen Modul zu- 
gefuhrt. Die Spracherkennung bzw. die Sprachausgabe wird dann 
von dem jeweiligen Modul ausgefiihrt. 

Bei dem Verfahren wird ein Eingabesignal analysiert mit dem 
beschrieben wird, welche Art von Spracherkennung bzw. Sprach- 
ausgabe benotigt wird. Abhangig von dem Eingabesignal wird 
mindestens ein Spracherkennungsmodul und/oder mindestens ein 
Sprachausgabemodul fur die jeweils durch das Eingabesignal 
beschriebene Spracherkennung bzw. Sprachausgabe, aktiviert. 
Mit dem jeweils ausgewahlten bzw. aktivierten Modul wird die 
jeweilige Art der Spracherkennung bzw. Sprachausgabe durchge- 
f tihrt . 

Sowohl das Sprachverarbeitungssystem als auch das Verfahren 
weisen eine Vielzahl erheblicher Vorteile gegemiber dem Stand 
der Technik auf. 
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Der Bedarf an Rechenkapazitat bzw. an Verarbeitungsressourcen 
fur die Spracherkennung bzw. zur Sprachausgabe wird erheblich 
reduziert, da abhangig von der jeweils benotigten Anwendungs- 
5 situation das fur die Situation optimal angepafite Modul zur 
Spracherkennung bzw. zur Sprachausgabe verwendet wird. 

Auch bei der Erstellung von Sprachdialogsystem ist das 
Sprachverarbeitungssystem zur Entwicklungsuntersttltzung sehr 

10 vorteilhaft einsetzbar. Besondere Vorteile bietet dieses 

Sprachverarbeitungssystem in diesem Bereich, da eine schnelle 
und einfache Anpassung der vorhandenen technischen Spracher- 
kennungsverf ahren und Sprachausgabeverf ahren an die jeweili- 
gen spezifischen Erf ordernisse der Anwendungssituation mog- 

15 lich ist. 

Weiterhin wird eine flexible, der spezifischen Dialogssitua- 
tion angepaiite Nutzung von deren unterschiedlichen Fahigkei- 
ten und Leistungsmerkmalen erreicht. Auch ist eine flexible 
20 Anpassung der Spracherkennungsleistung und Sprachausgabelei- 
stung an die bei den Benutzern in der spezifischen Dialogsi- 
tuation verfugbaren Ressourcen, beispielsweise der verfugba- 
ren Rechnerkapazitat moglich. 

25 Somit stellt das Sprachverarbeitungssystem ein bedeutendes 
Mittel dar zur bedarf sgerechten Konf iguration und Anpassung 
von Spracheingabe und Sprachausgabe in verschiedensten Anwen- 
dungssituationen. 

30 Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus 
den abhangigen Anspriichen. 

Es ist in einer Weiterbildung des Sprachverarbeitungssystems 
sehr vorteilhaft, bestimmte Algorithmen, also bestimmte Teile 
35 der Module gemeinsam zu verwenden, wodurch eine redundante 

Realisierung lediglich eigentlich nur einmal benotigter Algo- 
rithmen vermieden wird. 



Auch ist eine vorteilhafte Weiterbildung darin zu sehen, dafi 
mehrere Spracherkennungsmodule gemeinsame Resourcen verwen- 
den, beispielsweise gemeinsame Lexika fttr die Spracherken- 
nung. Dies fuhrt zu einer erheblichen Einsparung von Ressour 
cen, z. B. von Speicherbedarf . 

Weiterhin ist es vorteilhaft, eine Dialoglauf steuerung vorzu 
sehen, mit der ein Dialog des Sprachverarbeitungssystems mit 
einem Benutzer realisiert werden kann. 

Ein Ausfiihrungsbeispiel der Erfindung ist in den Figuren dar 
gestellt und wird im weiteren naher erlautert. 

Es zeigen 

Fig. 1 das Sprachverarbeitungssystem mit einigen Weiter- 
bildungen; 

Fig. 2 ein Blockdiagramm, in dem die Dialogablauf- 

steuerung dargestellt ist; 
Fig. 3 ein Ablauf diagramm, in dem ein mogliches Verfahren, 

welches zur Dialogablauf steuerung durchgef tthrt 

wird, dargestellt ist; 
Fig. 4.. ein Ablauf diagramm, in dem das erf indungsgemafle 

Verfahren dargestellt ist. 

In Fig. 1 ist das Sprachverarbeitungssystem dargestellt. Das 
Sprachverarbeitungssystem weist mindestens ein Spracherken- 
nungsmodul El, E2, Ei, En auf . Mit einem Index i, einer 

beliebigen Zahl zwischen 1 und n, wird jeweils das Spracher- 
kennungsmodul Ei eindeutig gekennzeichnet . Mit n wird eine 
Anzahl von Spracherkennungsmodulen in dem Sprachverarbei- 
tungssystem bezeichnet. 

Ferner weist das Spracherkennungssystem zusatzlich oder al- 
ternativ mindestens ein Sprachausgabemodul Al, A2,. Aj, 
Am auf. Mit einem zweiten Index j,- einer beliebigen Zahl zwi- 
schen 1 und m, wird jedes Sprachausgabemodul Aj eindeutig ge- 
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kennzeichnet. Mit m wird eine Anzahl von Sprachausgabemodulen 
in dem Sprachverarbeitungssystem bezeichnet. 

Ferner weist das Sprachverarbeitungssystem ein Mittel MA zur 
Auswahl der Spracherkennungsmodule Ei bzw. der Sprachausgabe- 
module Aj auf . Das Mittel MA zur Auswahl der Module ist mit 
den einzelnen Modulen Ei, Aj gekoppelt, so daB von dem Mittel 
MA zur Auswahl der Module Ei, Aj an die einzelnen Module Ei, 
Aj Signale gesendet werden konnen, beispielsweise zur Akti- 
vierung der einzelnen Module Ei, Aj oder auch zur Ubergabe 
von Parametern, die von den einzelnen Modulen zur Durchfuh- 
rung der Spracherkennung oder der Sprachausgabe benStigt wer- 
den . 

15 Spracherkennungsmodule Ei 

Grundlagen uber die Spracherkennung sind beispielsweise in 
den Dokumenten [1] und [2] beschrieben. 

20 Die einzelnen Spracherkennungsmodule El, E2, . .., En sind Mo- 
dule, die jeweils auf eine bestimmte Art der Spracherkennung 
spezialisiert sind. 

Die einzelnen Spracherkennungsmodule Ei konnen beispielsweise 
25 durch Hardware oder auch durch einzelne Sof twareprozeduren 
realisiert sein. 

Im folgenden wird eine keineswegs abschlieJiend zu betrachten- 
de Obersicht uber vorgesehene Spracherkennungsmodule Ei gege- 
30 ben, die im Rahmen des Sprachverarbeitungssystems verwendet 
werden konnen. 

- Einzelzif f ernerkenner 

Ist ein Spracherkennungsmodul Ei als ein Einzelzif fererkenner 
35 ausgebildet, so ist es derart ausgestaltet, als Eingabe ein 

einzelnes,. vom Benutzer B des Sprachverarbeitungssystems ein- 
gesprochenes Sprachsignal, welches eine einzige Ziffer repra- 



sentiert, aus einer Auswahl von Ziffern, zu verarbeiten. Da- 
bei unterscheiden sich die Einzelzif f ernerkenner Ublicherwei- 
se in der Modellierung der akustischen Muster. Es sind Syste- 
me bekannt, in denen von verschiedenen Sprechern die akusti- 
schen Muster fiir ein ganzes Wort gespeichert werden und mit- 
tels Vergleichsverfahren wie dem sog. Dynamic Programming 
oder dem Dynamic Time Warping oder auch unter Verwendung neu- 
ronaler Netze beim Erkennungsvorgang das am besten passende 
Wort ermittelt wird. Andere bekannte Module zur Einzelzif fer- 
nerkennung basiereri auf dem Prinzip der Hidden-Markov- 
Modelle. Bei diesen Prinzip der Einzelzif fernerkennung wird 
die Lautfolge der von mehreren Sprechern gesprochenen Worter 
als Zustandsfolge mit Variable und vorgegebener Lange abge- 
speichert. Bei der Erkennung der Worter, in diesem Fall der 
Ziffer, wird der geringste Abstand zu der abgespeicherten 
Wortfolge ermittelt. Bei Varianten dieses Prinzips werden in 
Hidden-Markov-Modellen die Folgen der einzelnen phonetischen 
Einheiten abgespeichert , die aus den Daten mehrerer Sprecher 
gewonnen werden, in der Regel Ziffern. Zur Verminderung beno- 
tigter Rechenkapazitat kann bei einem Einzelzif f ernerkenner 
ausgenutzt werden, da/5 auf keine der gespeicherten lautlichen 
Folgen eine weitere Folge auftreten kann. Aus diesem Grund 
ist in diesem Fall keine rechenaufwendige Detektion von Wor- 
grenzen erf order lich . Auch ist der zu untersuchende Wort- 
schatz relativ gering, da lediglich die Ziffern untersucht 
werden miissen. 

- Zif fernkettenerkenner 

Ist ein Spracherkennungsmodul Ei als Zif fernkettenerkenner 
ausgestaltet, so ist das Spracherkennungsmodul in der Regel 
mit Erkennern fiir kontinuierliche Sprache gleichzusetzen. Ei- 
ne Anzahl von in einem digitalen Lexikon definierten, vorgeb- 
baren Wortern, in diesem Spezialfall Ziffern, kann in belie- 
biger Reihenfolge hintereinander von einem Benutzer B des 
Sprachverarbeitungssystems geaufiert werden. Fiir diesen Fall 
ist eine Detektion der Grenzen zwischen den einzelnen Worten 
erforderlich. Dies kann entweder durch ein Verfahren zur ex- 
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pliziten Detektion der Wortgrenzen erfolgen, oder die Wort- 
grenzen werden von dem Algorithmus der Wortsuche festgelegt. 
Bei der Wortsuche werden parallel alle Ziffern im Eingabesi- 
gnal untersucht und verschiedene Enden hypothetisiert . An je 
dem Ende kann im Signal eine weitere Ziffer gesucht werden. 
Dazu wird ein Suchraum aufgebaut, der die verschiedenen Al- 
ternativen gleichzeitig verfolgt und sie nach vorgebbaren 
Qualitatskriterien ordnet. In diesem Zusammenhang kann bei- 
spielsweise das Prinzip der Dynamischen Programmierung ver- 
wendet werden, wie es in dem Dokument [1] beschrieben ist. 
Ein solches Kriterium kann der Abstand der beobachteten Teil 
des Signals zu den Ref erenzmustern, den einzelnen gespeicher 
ten Ziffern sein. Zif f ernkettenerkenner zeichnen sich in der 
Regel von kontinuierlichen Erkennern in der besonderen Art 
der Modellierung der akustischen Ref erenzmuster aus, bei de- 
nen bei der Ziffer eine spezifische Artikulationsweise oder 
typische Langen der einzelnen Ziffern ausgenutzt werden. 
Durch eine Modellierung von Sprachpausen oder durch ein Ent- 
scheidungskriterium, z. B. die im Signal sichbare Energie, 
kann in unterschiedlichen Heuristiken das Ende einer solchen 
Folge detektiert werden. 

- Erkennung von Wortern aus einem begrenzten Vokabular 
Ist ein Spracherkennungsmodul Ei als ein Spracherkenner fur 
bestimmte haufige Kommandoworte aus einem begrenzten Vokabu- 
lar, dem sog. Kernvokabular ausgestaltet, so werden algorith- 
misch die entsprechenden Verfahren angewendet wie auch zur 
Einzelziffernerkennung, jedoch mit dem Unterschied, daJJ das 
Vokabular urn die entsprechenden Worte erweitert ist bzw. dafi 
sich das Vokabular, mit den entsprechenden gespeicherten Re- 
prasentanten der einzelnen Worte von den Ziffern unterschei- 
det. Das speziell erweiterte bzw. ersetzte Vokabular ist fur 
den Spracherkenner vorgegeben und in der Regel mit einer gro- 
wer en Anzahl von Sprechern trainiert. 



- Erkennung eines Einzelwortes aus einem unbegrenzten Vokabu- 
lar 



Zur Erkennung fliefiend gesprochener Sprache mit einem unbe- 
grenzten Vokabular ist ein Spracherkennungsmodul Ei derart 
ausgestaltet, dafi die Worte des Vokabulars dem Spracherken- 
nungsalgorithmus, der in dem Spracherkennungsmodul Ei reali- 
siert wird, nicht bekannt sind, sondern von einem Benutzer B 
zuvor bestimmt werden. Der Algorithmus zur Spracherkennung 
basiert ublicherweise auf der Erkennung einer Folge von laut- 
lichen Einheiten, den sog. Phonemen oder anderen Wortunter- 
einheiten, aus denen sich die Worte des zu erkennenden Voka- 
bulars zusammensetzen lassen. In dem Lexikon des Spracherken- 
nungsmoduls Ei werden in einem Speicher die das jeweilige 
Wort kennzeichnenden lautlichen Folgen abgespeichert . Die 
Laute konnen in ihrer Modellierung auch noch weitere Unter- > 
einheiten, wie z. B. Beginn des Phonems, Mitte des Phonems, 
Ende des Phonems, Ubergang des Phonems, etc, aufweisen. Das 
Spracherkennungsverfahren sucht aus dem beobachteten Sprach- 
signal wiederum die Folge mit dem geringsten Abstand zu den 
Ref erenzdaten auf. Der Einzelworterkenner kann algorithmisch 
den Umstand ausnutzen, daJi auf keine der im Inventar abgeleg- 
ten lautlichen Folgen eine weitere Folge auftreten kann, 

- Erkennung flieliend gesprochener Sprache mit einem unbe- 
grenzten Vokabular 

Ist ein Spracherkennungsmodul Ei zur Erkennung fliefiend ge- 
sprochener Auflerungen des Benutzers mit einem unbegrenzten 
Vokabular ausgestaltet, so unterscheidet sich das Spracher- 
kennungsmodul Ei von einem Spracherkennungsmodul Ei zur Zif- 
f ernkettenerkennung in der Regel in der Art der Modellierung 
der lautlichen Einheiten. Ist das lexikalische Inventar, also 
das Vokabular, unbegrenzt, was auch als ein offenes lexikali- 
sches Inventar bezeichnet wird, erfolgt die akustische Model- 
lierung meist auf lautlichen Einheiten, den Phonemen, oder 
auf Wortuntereinheiten, aus denen sich das zu erkennende Vo- 
kabular zusammensetzen laBt. Ebenso wie bei dem Spracherken- 
nermodul Ei fur kontinuierliche Ziffern werden bei dieser 
Ausgestaltung des Spracherkennungsmoduls die Grenzen zwischen 
den Wortern durch eine geeignete Suche bestimmt. Dies erfolgt 
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beispielsweise durch eine Modellierung von Sprachpausen Oder 
durch ein Entscheidungskriterium, z. B. die im Signal sicht- 
bare Energie. Das Spracherkennungsmodul kann die wahrschein- 
lichste, oder mit Erweiterungen im Suchalgorithmus eine vor- 
5 gebbare Anzahl wahrscheinlichster Folgen von Wortern ausge- 
ben. Die Suche bei kontinuierlichen Spracherkennungsmodul en 
, wird meistens durch eine Modellierung der fur einen bestimm- 
ten Sprachausschnitt typischen oder moglichen Wortfolgen, den 
sog. Language-Modellen unterstiitzt. Unter Language-Modellen 
10 sind beispielsweise grammatische Modellierungen der Wortfol- 
gen oder Wortlisten oder statistische Modellierungen im Sinne 
einer sog. N-Gfam-Analyse zu verstehen. 

- Erkennung von vorgegebenen Wortkombinationen 

15 Zur Erkennung von vorgegebenen Wortkombinationen ist ein 

Spracherkennungsmodul Ei derart ausgestaltet, dafi beispiels- 
weise Datumsangaben, Uhrzeitangaben, Maflangaben, Zahlenanga- 
ben, etc. als spezielles Vokabular verwendet werden. Bei die- 
sen Spracherkennungsmodulen Ei handelt es sich ttblicherweise 

2 0 urn Spracherkennungsmodule Ei fur kontinuierliche Sprache, de- 
ren lexikalisches Inventar aber auf die vorgegebenen Wortkom- 
binationen aus den jeweiligen Bereichen, wie beispielsweise 
eine Datumsangabe oder eine Mafcangabe zugeschnitten ist. Des 
weiteren kann die Wortf olgensuche durch eine Modellierung der 

25 moglichen Wortfolgen wie bei einem kontinuierlichen Spracher- 
kennungsmodul Ei unterstiitzt werden, wobei sich diese Model- 
lierung dadurch auszeichnet, dafi sie im wesentlichen die zu 
erwartenden Ausdrucksweisen in einem dieser sprachlichen Un- 
tergebiete, z. B. Datumsangabe, besonders beriicksichtigt . 

30 

- Schllisselworterkennung 

Bei einem Spracherkennungsmodul Ei zur Schllisselworterkennung 
konnen in einem Spracheingabesignal ein oder mehrere vorgege- 
bene Worte, die in einem Lexikon zuvor gespeichert wurden, 
35 detektiert werden. Die verschiedenen Moglichkeiten zur Ausge- 
staltung der Spracherkennungsmodule zur Schllisselworterken- 
nung sind beispielsweise in dem Dokument [4] beschrieben. 



- Erkennung von Schltisselwortkombinationen 

Zur Erkennung von Schltisselwortkombinationen wird das gleiche 
Prinzip wie zur Erkennung von Schliisselworten verwendet, mit 
dem Unterschied, daB vordef inierte Wortketten in einem belie- 
bigen Eingabesignal ES detektiert werden konnen. Die Wortket- 
ten konnen entweder explizit als Ref erenzdaten abgespeichert 
werden oder durch andere Verfahren, beispielsweise Language- 
Modelle oder Grammatiken beschrieben werden. 

- Alphabeterkennung 

1st ein Spracherkennungsmodul Ei als eine Alphabeterkennungs- 
einrichtung ausgestaltet, so werden iiblicherweise die Buch- 
staben mit besonderen akustisch phonetischen Modellen be- 
schrieben. Als lexikalische Einheiten, die in einem Speicher 
des Sprachverarbeitungssystems vorgesehen sind, werden in 
diesem Fall im wesentlichen die Buchstaben des Alphabets ver- 
wendet, Ein Alphabeterkenner kann beispielsweise als Einzel- 
worterkenner das isolierte Alphabet oder auch als kontinuier- 
licher Erkenner fiir eine fliefiende Buchstabierung realisiert 
sein. Bei kontinuierlichen Alphabeterkennern kann durch Lan- 
guage-Modelle oder auch durch Grammatiken die Suche der tat- 
sachlichen Wortfolgen unterstiltzt werden. 

- Lautf olgeerkennung 

Ein Spracherkennungsmodul Ei zur Lautf olgenerkennung zeichnet 
sich dadurch aus, dafi die akustischen Einheiten auf phoneti- 
sche Einheiten modelliert werden und die zu erkennenden Laut- 
folgen nicht durch ein Lexikon beschrankt sind. Lautf olgener- 
kenner bzw. Phonemerkenner beruhen auf akustisch-phonetischen 
Modellierungen der Laute einer Sprache. Mit dem phonetischen 
Inventar wird die Suche in dem akustischem Sprachsignal 
durchgefiihrt . Hypothetisiert wird eine beliebige Kette von 
Lauten. In der akustischen Analyse werden verschiedene Heuri- 
stiken verwendet, urn ein zu schnelles Wechseln der hypotheti- 
sierten Laute, den Phonemen, in einer AuBerung zu verhindern. 
Zusatzlich konnen als Einschrankungen der zu erkennenden 



Lautfolgen im Sinne von Language-Modellen phonetische Gesetz- 
mafiigkeiten einer Sprache berticksichtigt werden. 



- DTMF-Erkennung 

Eine DTMF-Erkennung ist aus verschiedensten Bereichen der te- 
lefonischen Spracherkennung bekannt. 

Als Sprachausgabemodule Aj kSnnen verschiedene bekannte Prin- 
zipien zur Realisierung verschiedener Sprachausgabeprinzipien 
verwendet werden: 

- Ausgabe vorgegebener, gespeicherter Sprachkons erven 

Ist ein Sprachausgabemodul Aj zur Ausgabe vorgegebener, ge- 
speicherter Sprachkonserven ausgestaltet, so werden Sprachau- 
fierungen, die vorher von einer beliebigen Person eingespro- 
chen, aufgenommen und digitalisiert abgespeichert wurden, 
iiber einen beliebigen akustischen Kanal ausgegeben. Die auf- 
genommenen Aufierungen konnen hierbei die kompletten auszuge- 
benden Aufierungen sein, die jeweils fur eine bestimmte Situa- 
tion vorgesehen sind, oder aber auch Bruckstucke davon, die 
zur Laufzeit wieder zu kompletten Aufierungen zusammengesetzt 
werden. Ein typisches Beispiel hierftir ist die Bildung von 
Ziffernketten, deren Lange und Zusammensetzung in den meisten 
Anwendungsf alien nicht vorhersehbar ist. Es kdnnen jedoch je 
nach Kontext verschiedene intonatorische Varianten ein und 
derselben Aufierung vorliegen und in einem Sof twareprogramm 
entsprechend dem aktuellen Kontext ausgewahlt werden. Ferner 
sind verschiedene Methoden anwendbar, die eine sog. akusti- 
sche Glattung der verwendeten Konserven an den Obergangen der 
Konkatenation der einzelnen Sprachkonserven in verschieden- 
ster Form vornehmen konnen. 



- Ausgabe von aus gespeicherten Phonemen synthetisierten Wor- 
ten 

MOgliche Realisierungen zur Ausgestaltung von Sprachausgabe- 
modulen zur Synthese von gespeicherten Phonemen zu syntheti- 
sierten Worten sind in dem Dokument [5] beschrieben. 



Das Mittel MA zur Auswahl der in einem Anwendungsszenario je- 
weils zu verwendenden Spracherkennungsmodule Ei bzw. Sprach- 
ausgabemodule Aj ist derart ausgestaltet, daB abhangig von 
einem dem Mittel MA zugefiihrten Eingabesignal ES mindestens 
eines der Spracherkennungsmodule bzw. der Sprachausgabemodule 
aktiviert wird und, soweit es erforderlich ist, den einzelnen 
Spracherkennungmodulen Ei bzw. Sprachausgabemodulen Aj Para- 
meter, die im weiteren Verfahren zur Spracherkennung bzw. zur 
Sprachausgabe erforderlich sind, zugefiihrt werden. Die ent- 
sprechenden Paramter konnen beispielsweise darin zu sehen 
sein, dafi den Spracherkennungsmodulen Ei bzw. den Sprachaus- 
gabemodulen Aj Ressourcen zugewiesen werden oder auch bei- 
spielsweise die Speicheradressen der verwendeten digitalen 
Lexika zugefiihrt werden. 

In diesem Ausf iihrungsbeispiel werden die Ergebnisse, also die 
ausgegebenen Sprachsignale aus den Sprachausgabemodulen Aj 
dem Mittel MA zugefiihrt, und beispielsweise liber einen Aus- 
gang AS des Sprachverarbeitungssystems dem Benutzer B ausge- 
geben. Ein von einem Benutzer B gesprochenes Sprachsignal 
wird liber einen Eingang E, beispielsweise realisiert durch 
einen Mikrophon, dem Mittel MA zugefiihrt, und iiber das Mittel 
MA abhangig von den jeweils aktivierten Spracherkennungsmodu- 
len Ei, den jeweils aktivierten Spracherkennungsmodul Ei zu- ' 
gefiihrt. 

Die einzelnen Module Ei, Aj verwenden u. a. Wissensquellen, 
beispielsweise digitale Lexika, allgemeine Daten, die in ei- 
nem Speicher des Sprachverarbeitungssystems gespeichert sind. 
Unter den Wissensquellen sind beispielsweise auch auf die je- 
weilige Spracherkennungsauf gabe spezialisierte akustischer 
Modelle, z. B. ein Einzelworterkenner mit Lautmodellen oder 
Einzelworterkenner mit akustischen Modellen fiir beliebige 
Worter, zu verstehen. Die Wissensquellen konnen aber auch die 
von den Erkennern fiir einen gegebenen Dialogschritt in einem 
Dialogsystem zur Auswahl stehenden spezifischen Wortschatze 



sein, Oder fur bestimmte, erwartete eingabespezif ische sog. 
Sprachmodelle . 

Das von den Spracherkennungsmodulen Ei verwendete Vokabular 
ist beliebig durch orthographische, d. h. sprecherunabhangi- 
ge, oder sprachliche, d. h. sprecherabhangige, Eingabe sowohl 
bei der Erstellung als auch aktuell zur Laufzeit des Sprach- 
verarbeitungssystems erweiterbar und damit an wechselnde An- 
forderungen anpafibar. 

Durch geeignete Lernverf ahren konnen die Wissensquellen wah- 
rend des Betriebs des Sprachverarbeitungssystems durch eine 
Auswertung der laufenden Eingabedaten modif iziert und der be- 
sonderen Nutzungs- und Anwendungssituation angepafit werden. 

Weiterhin kann ein Parameter, der den Spracherkennungsmodulen 
Ei oder den Sprachausgabemodulen Aj zugeftihrt wird darin zu 
sehen sein, daii mit dem Parameter angegeben wird, ob selbst 
wahrend einer Sprachausgabe von dem Benutzer B gesprochene 
Sprachsignale bearbeitet und von dem Sprachverarbeitungssy- 
stem aufgenommen werden konnen. 

Im folgenden wird anhand eines sehr einfachen Beispiels ftlr 
eine Dialogsituation eine Ausgestaltung des Sprachverarbei- 
tungssystems als Sprachdialogsystem dargestellt. 

In der folgenden Darstellung in einem Pseudo- 
Nachrichtenf lulidiagramm wird jeweils zu Beginn einer Zeile 
auf der linken Seite eines Pfeils der Sender eines bestimmten 
Signals und auf der rechten Seite eines Pfeils der Empfanger 
des Signals, das im weiteren in dieser Zeile angegeben ist, 
beschrieben. 

In diesem Beispiel wird ohne Einschrankung der Allgemeinheit 
von einer Weiterbildung, welche im weiteren beschrieben wird, 
ausgegangen,- namlich einer Dialogablauf steuerung DA. 



DA MA: GebeAus ("Bitte nennen Sie Ihre Nummer nach dem 
Piepton" ) 

MA -> Al: PlayPromptFile (Bitte_nennen_Sie_Ihre_Nummer_nach 

dem_Piepton) 
Al MA: PlayPromptFinished 
MA -> DA: AusgabeComplete 

DA MA: ErkenneAulierung (Domane=Zif fern, Anzahl max. =5) 
MA — > El: StarteErkennung (Modus=Einzelzif f er, 

Lexikon^Digits) 
MA — » E2: StarteErkennung (Modus=kontinuierliche 

Zif f ernerkennung, Lexikon= Digits) 
El -> MA: ErkenneAusgabe (Modus=Einzelzif fer, Resultat=0) 
E2 MA: ErkenneAusgabe (Modus=kontinuierliche Zif fern, 

erkannte Zif f ernf olge : 12 3 4 5) 

MA DA: EingabeZiff ernf olge: (12 3 4 5) 



DA -» MA: GebeAus ("Ihre Nummer ist 1 2 3 4 5") 

DA — > Al: PlayPromptFile (Ihre_Nummer_ist) 

MA -> A2: Synthesise (Zif fernfolge 12 3 4 5) 

Al -» MA: PlayPromptFinished 

A2 MA: Synthesise Finished 

MA DA: AusgabeComplete 



DA MA: GebeAus ("Mochten Sie Vertrieb Oder Kundenservice 
sprechen? " ) 

MA Al: PlayPromptFile (M6chten_Sie_Vertrieb_oder_ Kun- 
denservice- sprechen) 

Al -> MA: Prompt file not available 

MA -> A2: Synthesise (Mochten Sie Vertrieb oder Kundenservice 
sprechen?) 

A2 -> MA: Synthesis finished 
MA —> DA: Ausgabe complete 

DA DM: ErkenneSprache (Domane=Vertrieb_oder_Kundenservice) 
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MA -> E3: StarteErkennung (Modus=kontinuierlich, Lexi- 
kon=Ke r n vo kabu 1 a r ) 

DM — » E4 : StarteErkennung (Modus=Schlusselworterkennung, Lexi- 
kon=Vertrieb und Kundenservice) 
5 E3 ^ MA: ErkennerAusgabe (Modus=kontinuierlich, Resultat="den 
Vertrieb bitte") 

E4 — > MA: ErkennerAusgabe (Modus=Schliisselworterkennung, Re- 
sultat="Vertrieb" ) 

MA -> DA: Eingabezeichenfolge (Vertrieb) 

10 

DA MA: GebeAus("Ihr Geburtsdatum bitte") 

MA -» Al: PlayPromptFile (Ihr_Geburtsdatum_bitte) 

DA -> MA: ErkenneAuflerung (Domane=Datum) 
15 DM — » E5: StarteErkennung (Modus=kontinuierlich, Lexi- 
kon=Da turns angabe) 

E5 MA: ErkenneAusgabe (Modus=kontinuierlich / Resultat l="am 
ersten ersten neunzehnhundertfunf zig" , Resultat 2="am ersten 
elf ten neunzehnhundertf imf zig" ) 
20 MA — » DA: Eingabezeichenfolge (am ersten ersten neunzehnhun- 
dertfiinf zig) 

DA MA: GebeAus("Sie sind am ersten ersten neunzehnhundert- 
f unf zig geboren") 

MA -> A3: ConcatAusgabe (Sie_sind_am ersten, ersten, neunzehn- 
25 hundertfunf zig, geboren) 

A3 MA: PlayPromptConcatComplete 
MA DA: AusgabeComplete 

DA — ► MA: ErkenneSprache (Domane= j /n-Frage) 
MA E6: StarteErkennung (Modus=Einzelwort, Lexikon= ( ja, 
30 nein) ) 

In diesem einfachen Beispiel weisen die Spracherkennungsmodu- 
le Ei die folgenden einfachen Spracherkennungscharakteristika 
auf : 

35 Das Spracherkennungsmodul El ist als Einzelzif f ernerkenner 

ausgestaltet, E2 als Spracherkennungsmodul zur Erkennung. kon- 
tinuierlicher Ziffern, also von Zif f ernketten. Das Spracher- 
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kennungsmodul E3 ist als Spracherkennungsmodul zur Erkennung 
fliefcend gesprochener Sprache mit einem begrenzten Vokabular, 
dem Lexikon „Kernvokabular", ausgestaltet . Das Spracherken- 
nungsmodul E4 ist als Schltisselworterkenner mit dem Lexikon 
"Vertrieb und Kundenservice" ausgestaltet, das Spracherken- 
nungsmodul E5 ist als ein Spracherkennungsmodul zur Erkennung 
von vorgegebenen Wortkombinationen, in diesem Spezialfall zur 
Erkennung von einer Datumsangabe ausgestaltet. 

Die verwendeten Sprachausgabemodule Aj sind in diesem einfa- 
chen Beispiel als Modul zur Ausgabe vorgegebener, gespeicher- 
ter Sprachkonserven (Al), ein Modul zur Synthetisierung von 
Sprache aus beispielsweise Phonemen (A2) sowie ein Modul zur 
Ausgabe zusammengesetzter einzelner vorgegebener, gespeicher- 
ter Sprachkonserven (A3) ausgestaltet. 

Wie aus diesem einfachen Beispiel ersichtlich wird, wird je- 
weils dem Mittel MA von den Spracherkennungsmodul en Ei die 
Ergebnisse der Spracherkennung bzw. von den Sprachausgabemo- 
dulen Aj das auszugebende Sprachsignal zugeftihrt. 

Andererseits wird von dem Mittel MA den einzelnen Modulen Ei, 
Aj die • jeweilige zur Erkennung benotigte Information zuge- 
flihrt, beispielsweise auch das in das Sprachverarbeitungssy- 
stem eingesprochene Sprachsignal. 

Eine weitere Weiterbildung des Sprachverarbeitungssystem und 
des Verfahrens zur Sprachverarbeitung ist darin zu sehen, daJi 
das Sprachsignal auch von mehreren Spracherkennungsmodulen Ei 
Oder Sprachausgabemodulen Aj gleichzeitig bearbeitet wird, 
und dafl jeweils das beziiglich eines beliebigen Ahnlichkeits- 
mafles beste Ergebnis verwendet wird oder auch nur ein Ver- 
gleichsergebnis zur Erhohung der Erkennungssicherheit verwen- 
det wird. 



D i al ogabl auf s teuerung 
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Mit der Dialogablauf steuerung DA wird ein vorgebbarer Dialog 
mit dem Benutzer B des Sprachverarbeitungssystems je nach de 
Anwendungssituation durchgef tthrt, und abhangig von der jewei 
ligen Dialogssituation dem Mittel MA Steuerungsinf ormation, 
beispielsweise noch benotigte Information zugef tthrt . Weiter- 
hin wird in dieser Weiterbildung beispielsweise das Ergebnis 
der Spracherkennungsmodule in dem Mittel zur Dialogablauf - 
steuerung ausgewertet, was beispielsweise auf die folgende 
Weise erfolgen kann: 

Die Dialogablauf steuerung DA weist mindestens folgende Kompo 
nenten auf, die miteinander gekoppelt sind, beispielsweise 
liber einen Bus BU (vgl. Figur 2) : 

ein Eingabemittel EM, 

einen Eingabespeicher ESP, 

eine Aktionsermittlungseinheit AE, 

einen Parameterparser PP. 

Die Arbeitsweise der einzelnen Komponenten der Dialogablauf- 
steuerung DA werden im Zusammenhang mit den Verfahren zur Ab- 
lauf steuerung eines Dialogs mit dem Benutzer B im weiteren 
detalliert erlautert . 

Die Aktionsermittlungseinheit AE dient zum einen zur Ermitt- 
lung von Aktionshinweisen und zum anderen zur Ermittlung min- 
destens einer vorgebbaren Aktion, auf die durch den Aktions- 
hinweis hingewiesen wird. Die Aktion wird aus einer beliebi- 
gen Anzahl vorgebbarer Aktionen ermittelt. Verschiedene Ver- 
fahrensweisen zur Ermittlung der gesuchten Aktion, auf die 
durch den Aktionshinweis hingewiesen wird, sind dem Fachmann 
bekannt. Einige beispielhaft dargelegte Moglichkeiten zu de- 
ren Realisierung werden jedoch im Zusammenhang mit dem Ver- 
fahren detailliert erlautert. 

Der Parameterparser PP dient zur Ermittlung von Aktionspara- 
metern, die jeder Aktion jeweils eindeutig zugeordnet sind, 



aus der in dem Eingabespeicher ESP gespeicherten digitalen 
Aktionsinf ormation . 

In Figur 2 ist die Dialogablauf steuerung DA mit einigen Wei- 
terbildungen der Dialogablauf steuerung DA zur Aktionsermitt- 
lung dargestellt. 

Eine in einer Ausgestaltung vorgesehene Inf ormationsdatenbank 
ID enthalt jeweils anwendungspezif isch gesuchte .Inf ormation, 
die anhand der bestimmten Aktion und den anschlieBend fUr die 
Aktion ermittelten Aktionsparameter ermittelt- wird. 

Es ist in einer Weiterbildung eine Aktionsklarungseinheit AKE 
vorgesehen zur Ermittlung weiterer Aktionshinweise von dem 
Benutzer. Die Aktionsklarungseinheit AKE gewinnt vor: allem in 
Anwendungsgebieten eine erhohte Bedeutung, wenn es gilt, un- 
ter verschiedenen Aktionen die gesuchte Aktion zu ermitteln. 
Sind die Aktionshinweise, die von dem Benutzer B der Dialo- 
gablauf steuerung DA ttbergeben werden, zur Bestimmung der Ak- 
tion nicht ausreichend, so wird die Aktionsklarungseinheit 
AKE zur Ermittlung weiterer Aktionshinweise von dem Benutzer 
B verwendet. Die Ausgestaltung der Aktionsklarungseinheit AKE 
wird im Zusammenhang mit dem Verfahren naher erlautert. Es 
ist jedoch nicht notwendig, daB die Aktionsklarungseinheit 
AKE genau eine Aktion ermittelt. Es ist ebenso vorgesehen, 
die Anzahl vorgegebener Aktionen in einer beliebigen Art zu 
reduzieren, urn somit nur noch eine geringere Anzahl von Ak- 
tionen weiter zu verarbeiten. 

In einer Weiterbildung ist eine Parameterklarungseinheit PKE 
vorgesehen zur Ermittlung weiterer Aktionsparameter von dem 
Benutzer B. Die Parameterklarungseinheit PKE wird verwendet, 
wenn fur die mindestens eine ermittelte Aktion nicht alle Ak- 
tionsparameter, die den jeweiligen Aktionen zugeordnet sind, 
bestimmt werden konnen. Fur diesen Fall ist es vorteilhaft, 
daB die Parameterklaruungseinheit PKE verwendet wird, um feh- 
lende Aktionsparameter von dem Benutzer B zu ermitteln. 



In einer Weiterbildung der Dialogablauf steuerung DA ist es 
ferner vorteilhaft, einen ersten Aktionsspeicher AS1 und/ode 
einen zweiten Aktionsspeicher AS2 vorzusehen. In dem ersten 
Aktionsspeicher AS1 werden Aktionen und deren Aktionsparame- 
ter gespeichert, bei denen der mindestens eine Aktionshinwei 
vollstandig mit mindestens einem Teil von Schlusselbegrif fen 
deren Bedeutung im weiteren beschrieben wird, tibereinstimmt . 
In dem zweiten Aktionsspeicher AS2 werden Aktionen und deren 
Aktionsparameter gespeichert, bei denen mindestens einer der 
Aktionshinweise mit mindestens einem Schlusselbegrif f iiber- 
einstimmt. 

Ferner ist in einer Weiterbildung ein Mittel GF zur Generie- 
rung von Fragen (prompts) an den Benutzer B zur Ermittlung 
weiterer Aktionshinweise und/oder weiterer Aktionsparameter 
vorgesehen. Der Aufbau des Mittels GF zur Generierung von 
Fragen ist beispielsweise aus dem Dokument [3] bekannt. 

Ferner ist es in einer Weiterbildung der Dialogablauf steue- 
rung DA vorgesehen, eine Steuerungseinheit STE zur Steuerung 
einer Hintergrundanwendung HA unter Verwendung der ermittel- 
ten Information zu verwenden. Der Aufbau der Steuerungsein- 
heit STE ist vollig anwendungspezif isch und dient lediglich 
dazu, die ermittelte Aktion zur Steuerung der Hintergrundan- 
wendung HA zu verwenden. Die unterschiedlichen Verwendungs- 
moglichkeiten und somit auch die unterschiedlichen Ausgestal- 
tungen der Steuerungseinheit STE werden im weiteren detail- 
liert beschrieben. 

Ferner ist in einer Weiterbildung ein Schlusselbegrif f editor 
SE vorgesehen, mit dem zum einen die im weiteren beschriebe- 
nen Schlusselbegrif fe und zum anderen neue Aktionen und/oder 
Aktionsparameter verandert, entfernt oder hinzugefUgt werden 
konnen. 
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Die einzelnen Verf ahrensschritte des Verfahrens sind in Figur 
3 dargestellt. 

In einem ersten Schritt 301 -wird von dem Benutzer B der Dia- 
logablauf steuerung DA Aktionsinf ormation, die mindestens ei- 
nen Aktionshinweis aufweist, Ubergeben. Das Verfahren mufi 
nicht notwendigerweise mit der im vorigen beschriebenen An- 
wendung durchgefuhrt werden, es ist ebenso mdglich, das Ver- 
fahren mit Hilfe eines Rechners durchzuftihren. 

Die Aktionsinf ormation wird von dem Benutzer B an die Dialo- 
gablauf steuerung DA oder das Sprachverarbeitungssystem tiber- 
geben. Die Aktionsinf ormation wird digitalisiert und als di- 
gitalisierte Aktionsinf ormation gespeichert 302. Die digitale 
Aktionsinf ormation kann beispielsweise in einer Phonemdar- 
stellung oder auch in Form eines iiblichen Codes zur Darstel- 
lung von Schrif tzeichen (beispielsweise ASCII-Code) gespei- 
chert werden. 

20 In einem weiteren Schritt 303 wird aus der gespeicherten Ak- 
tionsinf ormation unter Verwendung des Parameterparses PP, 
dessen Aufbau beispielsweise aus dem Dokument [4] bekannt 
ist, mindestens ein Aktionshinweises ermittelt. 

5 Unter Verwendung des Aktionshinweises und der Aktionsermitt- 
lungseinheit AE wird mindestens eine Aktion bestimmt 304. 

Die Bestimmung der mindestens einen Aktion kann auf unter- 
schiedliche Weise erfolgen. Eine sehr einfach jedoch in kein- 

30 ster Weise ausschliefllich verwendbare Methode liegt darin, 
jeder Aktion eine vorgebbare Anzahl von Schliisselbegrif f en, 
die jeweils die Aktion charakterisieren, zuzuordnen, und .die 
aus der Aktionsinf ormation ermittelten Aktionshinweise, die 
durch den Parameterparser PP ermittelt werden, mit den 

35 Schliisselbegrif f en zu vergleichen. Der Vergleich kann durch 

einen direkten Wortvergleich oder auch durch einen beliebigen 
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Mustervergleich, deren Algorithmen jedem Fachmann gelaufig 
sind, erfolgen. 

1st die mindestens eine Aktion ermittelt worden 304, werden 
fur alle Aktionen die Aktionsparameter, die den Aktionen ein- 
deutig zugeordnet sind, aus der digitalen Aktionsinf ormations 
mittels des Parameterparser PP ermittelt 305. Anhand der er- 
mittelten Aktion sowie der zugehorigen Aktionsparameter wird 
nun in einem letzten Schritt 306 die Aktion durchgefiihrt . 

In einer Weiterbildung des Verfahrens wird Information zu der 
Aktion aus der Inf ormationsdatenbank ID ermittelt und dem Be- 
nutzer B uber die Ausgabeeinheit AUS dargestellt. 

Reichen die in der digitalen Aktionsinf ormation enthaltenen 
Aktionshinweise nicht fur die Ermittlung mindestens einer Ak- 
tion. aus 4 01, so ist es in einer Weiterbildung vorgesehen, 
weitere Aktionshinweise beispielsweise durch einen Dialog mit 
dem Benutzer B zu ermitteln, 402 . 

Dies geschieht z. B. unter Verwendung der Aktionsklarungsein- 
heiten AKE, die vorzugsweise derart ausgestaltet ist, daJJ fur 
die vorgegebenen Aktionen jeweils mindestens ein Ermittlungs- 
prompt eindeutig zugeordnet ist. Unter dem Ermittlungsprompt 
sind beispielsweise Fragen zu verstehen, die der jeweiligen 
Aktion zugeordnet und fest gespeichert sind. Diese Ermitt- 
lungsprompts werden dem Benutzer B bei unzureichender Infor- 
mation zur Ermittlung der Aktionen dargestellt. Der Benutzer 
B gibt auf diese Ermittlungsprompts, also die entsprechenden 
.Fragen, Antworten, die dann wiederum verarbeitet werden, wo- 
durch weitere Aktionshinweise ermittelt werden. Der Dialog 
wird solange durchgefiihrt und wiederholt, bis die ermittelten 
Aktionshinweise und weiteren Aktionshinweise ausreichend sind 
zur I dent if ikation der vorgebbaren Anzahl von Aktionen. 



1st die mindestens eine Aktion ermittelt, werden fiir jede Ak- 
tion die Aktionsparameter, die der jeweiligen Aktion zugeord- 
net sind, ermittelt 305. 

Sind jedoch nicht alle benotigten Aktionsparameter vollstan- 
dig aus der in dem Eingabespeicher ESP ermittelten digitalen 
Aktionsinf ormation bekannt bzw. ermittelt worden, was in ei- 
nem zusatzlichen Verf ahrensschritt 4 03 geprlift wird, werden 
die restlichen Aktionsparameter beispielsweise von der Para- 
meterklarungseinheit PKE ermittelt 404. 

Dies geschieht beispielsweise ebenfalls in einem Dialog mit 
dem Benutzer B. Fur diesen Dialog konnen wiederum den einzel- 
nen Parametern zugeordnete Prompts, im folgenden als Parame- 
ter-Prompts bezeichnet, verwendet werden, die bei notwendiger 
Ermittlung der entsprechenden Aktionsparameter an den Benut- 
zer B ausgegeben werden und der Benutzer B antwortet auf die 
entsprechenden Fragen . 

Sowohl die Ermittlung weiterer Aktionshinweise 402 als auch 
die Ermittlung der restlichen Aktionsparameter 4 04 kann je- 
doch auch auf andere Weise erfolgen. 

Beispielsweise ist es nicht unbedingt notwendig, fest vorge- 
gebene Ermittlungs-Prompts oder Parameter-Prompts den einzel- 
nen Aktionen bzw. Parametern zuzuordnen, wodurch zum einen 
zwar die Einfachheit in der Durchfuhrung des Verfahrens und 
in der Anpassung der jeweiligen Anwendung und die Erweiter- 
barkeit der Aktionen und Parameter erheblich vereinfacht 
wird, jedoch immer nur fest vorgegebene Fragen an den Benut- 
zer B gestellt werden. 

Es ist in einer Weiterbildung des Verfahrens und der Dialo- 
gablauf steuerung DA vorgesehen, das Mittel GF zur Generierung 
von Fragen an den Benutzer B zu verwenden. Eine Moglichkeit 
zur Realisierung des Mittels GF ist beispielsweise in dem Do- 
kument [3] beschrieben. 



In einer Weiterbildung des Verfahrens ist vorgesehen, zur Er- 
mittlung der Aktion in der Aktionsermittlungseinheit AE fol- 
gende Schritte durchzuftihren. In der Aktionsermittlungsein- 
heit AE wird fur jede Aktion der Vergleich der Schltisselbe- 
griffe mit den Aktionshinweisen durchgefiihrt . 

Es wird eine erste Menge von Aktionen ermittelt, bei denen 
alle Aktionshinweise mit mindestens einem Teil der Schlussel- 
begriffe tibereinstimmen. Anschaulich beschrieben bedeutet 
diese Vorgehensweise, daB die Schnittmenge aller Aktionen, 
auf die durch die Aktionshinweise hingewiesen wurde, ermit- 
telt wird. Die erste Menge von Aktionen wird beispielsweise 
in dem ersten Aktionsspeicher AS1 gespeichert. 

Ferner wird eine zweite Menge von Aktionen gebildet, bei de- 
nen mindestens ein Teil der Aktionshinweise mit den Schliis- 
selbegriffen ubereinstimmt . Diese Vorgehensweise bedeutet an- 
schaulich eine Bildung der Vereinigungsmenge aller Aktionen, 
auf die hingewiesen wurde. Die zweite Menge von Aktionen wird 
beispielsweise in dem zweiten Aktionsspeicher AS2 gespei- 
chert . 



Enthalt die erste Menge genau ein Element, so ist die zu er- 
mittelnde Aktion eindeutig identif iziert . Fur diesen Fall ist 
kein weiterer Klarungsdialog notwendig. Enthalt die erste 
Menge jedoch mehr Elemente als die Anzahl von zu ermittelnden 
Aktionen, so ist die Aktion durch die initiale Benutzereinga- 
be nicht genau genug beschrieben. In diesem Fall ist es vor- 
teilhaft, den im vorigen beschriebenen Klarungsdialog durch- 
zufuhren. 

Ist die erste Menge eine leere Menge, so enthalt die initiale 
BenutzerauBerung Hinweise auf disjunkte Aktionen. In diesem 
Fall wird vorteilhaf terweise der Klarungsdialog durch die in 
der zweiten Menge enthaltenen Aktionen gesteuert. 



Sind sowohl die erste Menge als auch die zweite Menge leere 
Mengen, so wird beispielsweise ein Klarungsdialog zur Unter- 
scheidung aller in der Anwendung bekannten Aktionen durchge- 
f uhrt . 

Somit dienen die erste Menge und die zweite Menge in dieser 
Weiterbildung als Grundlage fUr den Dialog mit dem Benutzer B 
zur Ermittlung der mindestens einen Aktion. 

Die ermittelte Aktion kann in einer Weiterbildung des Verfah- 
rens vorteilhaft zur Steuerung mindestens einer Hintergrund- 
anwendung HA eingesetzt werden. 

Unter der Hintergrundanwendung HA sind unterschiedlichste 
Einsatzmoglichkeiten des Verfahrens und der Dialogablauf- 
steuerung DA zu verstehen, die im weiteren erlautert werden. 

Das Verfahren sowie die Dialogablauf steuerung DA konnen bei- 
spielsweise in folgenden Gebieten vorteilhaft eingesetzt wer- 
den : 

in einem Telef ondienst, 

in einem Telekauf-System und/oder Tele-Banking-System, 

in einem sog. Voice Mail Handling System, 

zur Steuerung einer beliebigen Maschine, beispielsweise 

einer Werkzeugmaschine oder eines Roboters, 

zur Steuerung eines Rechners, 

in einem Messaging-System einer Nebenstellenanlage eines 
Telekommunikationssystems . 

Ferner ist es in einer Weiterbildung des Verfahrens vorteil- 
haft, daA die Auswertung der digitalen Aktionsinf ormation, 
die in dem Eingabespeicher ESP gespeichert wird, von dem Pa- 
rameterparsel PP in bezuglich der Eingabe der Aktionsinf orma- 
tion in umgekehrter Reihenfolge ermittelt werden. 

Dies bedeutet, dafi die Auswertung der Aktionsinf ormation am 
Schlufl der Aktionsinf ormation begonnen wird und bis zum An- 
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fang der Aktionsinf ormation weitergefiihrt wird. Durch diese 
Vorgehensweise wird eine Korrektur der Aktionsinf ormation 
durch den Benutzer B in einem Satz moglich, was im folgenden 
noch detalliert erlautert wird. 

5 

Zum einfacheren Verstandnis der Dialogablauf steuerung DA wird 
im folgenden ein sehr einf aches Beispiel aus der Touristik- 
branche dargestellt. Beispielsweise konnen in diesem Anwen- 
dungsgebiet folgende Aktionen definiert sein: 

10 

- Auskunft iiber Bahnverbindungen; 

- Auskunft iiber Flugverbindungen; 

- Auskunft iiber Schif fsverbindungen; 

- Auskunft iiber Hotelzimmer; 
15 - Restaurantinf ormation. 

Die einzelnen Aktionen konnen beispielsweise durch folgende 
Parameter gekennzeichnet sein; 

Bahnauskunft : <Abf ahrtsort>, <Ankunf tsort>, <Datum>, 
20 <Uhrzeit> 



30 In Form eines Pseudocodes werden im folgenden die einzelnen 
Aktionen spezif iziert . Hierbei wird jeweils unter dem Punkt 
2.1 der Aktion eindeutig eine Nummer zugewiesen, unter dem 
Punkt 2.2 der jeweilige Ermittlungs-Prompt und unter der Num- 
mer 2.3 die einzelnen Parameterspezif ikationen, die sich, je- 

35 weils abhangig von der definierten Grammatik in diesem Fall 
fur vorgegebene Parameter-Prompts ■ in einer Weise darstellen, 
daa jeweils unter dem Punkt 3.1 und dem Punkt 3.3 die jewei- 
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Flugauskunft : <Abf ahrtsort>, <Ankunf tsort>, <Datum>, 
<Uhrzeit> 

Schif fsauskunft : <Abf ahrtsort>, <Ankunf tsort>, <Datum>, 

<Uhrzeit> 

Hotelauskunft : <Ort>, <Zimmer>, <Art>, <Anzahl der 

Personen>, <Check in Datum>, <Check out 
Datum> 

Restaurantinf ormation: <Ort>, <Stil>, <Kategorie>. 
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lige Grammatik des jeweiligen Aktionsparameters gegeben 1st 
und unter dem Punkt 3.2 der jeweilige Parameter-Prompt darge- 
stellt ist. 



aktion (Bahnauskunf t ) 
{2.1: Nummer = 1 

2.2: Ermittlungs-prompt = 'Mochten Sie eine Bahnauskunf t 
einholen? 1 

10 2.3: Parameterspezif ikationen = {parameter 

{3.1: g_abfahrt(X) 

3.2: f Bitte nennen Sie 

den gewunschten Abf ahrtsort . ' 

3.3: g_ort(X) 
15 } 

parameter 

{3.1: g_ankunft (Y) 
3.2: ' Bitte nennen Sie 

den gewunschten Ankunf tsort . ' 

3.3: g_ort(Y) 

} 

parameter 
{3.1: g_datum(Z) 

3.2: 'An welchem Datum 



20 



30 



wollen Sie f ahren? ' 



len Sie f ahren? 



3.3: g_datum(Z) 
} 

parameter 

{3.1: g_uhrzeit (W) 

3.2: ' Um wieviel Uhr wol- 

3.3: g_uhrzeit (W) 
} 



} 

35 2.4: Aktionshinweise = {von, nach, f ahren, Zugauskunft, 

Eisenbahn, Bahnauskunf t } 
2.5: Bestatigungs-prompt = 



10 



15 



20 



30 
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'Sie erhalten Auskunft liber die Ziige von X 
nach Y am Z urn W Uhr. 1 

} 



akt ion ( Flugaus kunf t ) 
{2.1: Nummer = 2 

2.2: Ermittlungs-prompt = 'Mochten Sie eine Flugauskunft 
einholen? ' 

2.3: Parameterspezif ikationen = {parameter 

{3.1: g_abfahrt (X) 

3.2: 'Bitte nennen Sie 

den gewunschten Abflugort. ' 

3.3: g_ort(X) 
} 

parameter 

{3.1: g_ankunft(Y) 
3.2: f Bitte nennen Sie 

den gewtinschten Ankunf tsort . f 

3.3: g_ort(Y) 

} 

parameter 

{3.1: g_datum(Z) 

3.2: 'An welchem Datum 



25 wollen Sie fliegen?' 



len Sie fliegen?' 



3.3: g_datum(Z) 
} 

parameter 

{3.1: g__uhrzeit (W) 

3.2: 'Um wieviel Uhr wol- 

3.3: g_uhrzeit (W) 
} 



} 

35 2.4: Aktionshinweise = {von, nach, fahren, fliegen, 

Flugauskunft, Flugzeug} 
2.5: Bestatigungs-prompt = 
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'Sie erhalten Auskunft tiber die Fliige von X 
nach Y am Z urn W Uhr. ' 

} 



aktion (Schif f sauskunf t ) 
{2.1: Nummer = 3 

2.2: Ermittlungs-prompt = 'Mochten Sie eine Schif f saus- 
kunf t einholen?' 
10 2.3: Parameterspezif ikationen = {parameter 

{3.1: g_abfahrt (X) 

3.2: f Bitte nennen Sie 

den gewunschten Abf ahrtsort . 1 

3.3: g_ort(X) 
15 } 

parameter 

{3.1: g_ankunft(Y) 

3.2: 'Bitte nennen Sie 

den gewunschten Ankunf tsort . 1 

3.3: g_ort(Y) 

} 

parameter 
{3.1: g_datum ( Z ) 

3.2: 'An welchem Datum 



20 



30 



wollen Sie fahren?' 



len Sie fahren? 



3.3: g_datum(Z) 
} 

parameter 

{3.1: g_uhrzeit(W) 

3.2: 'Urn wieviel Uhr wol- 

3.3: g_uhrzeit (W) 
} 



} 

35 2.4: Aktionshinweise = {von, nach, fahren, Schif f saus- 

kunf t, Schif f} 
2.5: Bestatigungs-prompt = 
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'Sie erhalten Auskunft iiber die Schif f sverbindungen 
von X nach Y am Z um W Uhr . ' 

} 



10 



15 



20 



30 



35 



aktion {Hotelauskunf t ) 
{2.1: Nummer = 4 

2.2: Ermittlungs-proinpt = 'Mochten Sie eine Hotelauskunf t 
einholen? T 

2.3: Parameterspezif ikationen = {parameter 

{3.1: g_ortsangabe (X) 

3.2: 'In welchem Ort su- 

chen Sie ein Hotel? 1 

3.3: g_ortsangabe (X) 
} 

parameter 

{3.1: g_zimmerart (Y) 
3.2: 'Suchen Sie Einzel- 

zimmer oder Doppelzimmer? ' 

3.3: g_zimmerart (Y) 

} 

parameter 

{3.1: g_anzahl_personen (Z) 

3.2: 'Fur wieviele Perso- 



25 nen suchen Sie Zimmer? ' 



einchecken? ' 



schecken? ' 



3 . 3 : g_anzahl_personen ( Z ; 
} 

parameter 

{3.1: g_von_datum (W) 

3.2: 'Wann wollen Sie 



3.3: g_datum(W) 
} 

parameter 

{3.1: g_bis_datum (V) 

3.2: 'Wann wollen Sie au- 



3.3: g_datum(V) 
} 

} 

2.4: Aktionshinweise = (Hotel, Unterkunft, Einzelzimmer, 
Doppelzimmer, Zimmer} 

2.5: Bestatigungs-prompt = 

'Sie erhalten Auskunft uber Hotels in X, die Y fiir Z 
Personen vom W bis zum V frei haben.' 
} 



aktion (Restaurantinf ormation) 
{2.1: Nummer = 5 

2.2: Ermittlungs-proznpt = 'Mochten Sie eine Restaurantin- 
f ormation einholen? 1 
2.3: Parameterspezif ikationen = {parameter 

{3.1: g_ortsangabe (X) 

3.2: f In welchem Ort 

mochten Sie essen gehen? ' 

3.3: g_ort (X) 
} 

parameter 

{3.1: g_stil (Y) 
3.2: 'Bitte nennen Sie 

den gewiinschten Stil. 1 

3.3: g_stil(Y) 

} 

parameter 

{3.1: g_kategor ie ( Z ) 

3.2: 'Bitte nennen Sie 

die gewiinschte Kategorie.' 

3.3: g_kategor ie ( Z ) 
} 

} 

2.4: Aktionshinweise = {Restaurant, essen} 
2.5: Bestatigungs-proinpt = 
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' Sie erhalten Auskunft liber Y Restaurants der Z Ka 
tegorie in X. f 
} 

5 In der folgenden Tabelle sind Schliisselbegrif fe fur die ein- 
zelnen Aktionen, die durch die entsprechende Nummer in den 
geschweif ten Klammern^ eindeutig identif iziert sind, beispiel 
haft aufgefiihrt. 



10 


von . 


{i/ 


2, 3} 




nach 


{i, 


2, 3} 




f ahren 


{i, 


2, 3} 




Zugauskunf t 


{i> 






Eisenbahn 


{i> 
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f liegen 


{2} 






Flugauskunft 


{2} 






Flugzeug 


{2} 






Schif f sauskunf t 


{3} 






Schiff 


{3> 
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Hotel 


{4} 






Unterkunf t 


{5} 






Einzelzimmer 


{4} 






Doppe 1 z imme r 


{4} 






Restaurant 


{5} 
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Essen 


{5} 





Ein Beispiel fur einen Dialog des Benutzers B mit der Dialo- 
gablauf steuerung DA wird im folgenden dargestellt. 

30 Der Benutzer B aufiert seinen Wunsch prazise und vollstandig. 

Der Benutzer B gibt folgende Inf ormationen ein: 

„Ich mochte am 1. Januar 1996 urn S.oo Uhr mit dem Zug von 

Miinchen nach Hamburg f ahren." 

35 

Der erste Aktionsspeicher AS1 enthalt unter Verwendung der 
oben beschriebenen Schliisselbegrif f e und Grammatiken die er- 



ste Menge von Aktionen {1}. Der zweite Aktionsspeicher AS2 
enthalt die zweite Menge von Aktionen {1, 2, 3}. 

Da der erste Aktionsspeicher AS1 genau ein Element aufweist, 
wird direkt von der Dialogablauf steuerung DA aus der Informa 
tionsdatenbank ID die gesuchte Information ermittelt und bei 
spielsweise dem Benutzer B durch folgende Antwort darge- 
stellt : 

„Sie erhalten Auskunft liber die FlUge von Miinchen nach Ham- 
burg am 1. Januar 1996 urn filnf Uhr: „1. Flug, 2. Flug, 3. 
Flug usw. . " . 

Bei einem weiteren Beispiel nennt der Benutzer B weder Uhr- 
zeit noch Verkehrsmittel : 

Die Aktionsinf formation ist beispielsweise folgende: 
„Ich mochte am 1. Januar 1996 von Mttnchen nach Hamburg." 

Der erste Aktionsspeicher AS1 enthalt in diesem Fall die er- 
ste Menge von Aktionen {1,2,3}. Der zweite Aktionsspeicher 
AS2 enthalt die zweite Menge von Aktionen {1,2,3}. In der 
Dialogablaufsteuerung DA wird ein Klarungsdialog initiiert, 
urn zwischen den Aktionen {1,2,3} zu unterscheiden. 

Hierzu wird beispielsweise der oben beschriebene Ermittlungs- 
Prompt : 

„Mochten Sie eine Bahnauskunf t? xx 
dem Benutzer B ausgegeben. 

Der Benutzer B antwortet beispielsweise mit „Nein w . 

In diesem Fall wird von der Dialogablaufsteuerung DA bei- 
spielsweise folgender Ermittlungsprompt ausgegeben: 
„Mochten Sie eine Flugauskunf t? w 

Beantwortet der Benutzer B diese Frage mit „Ja", so wird ein 
weiterer Klarungsdialog zur Ermittlung der restlichen, noch 
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fehlenden Aktionsparameter ftir die Flugauskunf t durchgefiihrt . 
Hierbei wird beispielsweise zur Ermittlung des Aktionsparame- 
ters Uhrzeit der Parameter-Prompt: 
„Um wieviel Uhr mochten Sie fliegen?" 
5 dem Benutzer B ausgegeben. 

Der Benutzer B antwortet beispielsweise: 
„Um funf Uhr." 

10 Nun hat die Dialogablauf steuerung DA ausreichend Information, 
urn die gesuchte Aktion zu ermitteln. Das Ergebnis wird dem 
Benutzer B beispielsweise in folgender Weise dargestellt: 
„Sie erhalten Auskunft uber die Fltige von Mtinchen nach Ham- 
burg am 1. Januar 1996 urn funf Uhr" . 

15 

Weitere Details iiber eine mogliche Ausgestaltung der Dialo- 
gablauf steuerung DA sind in der Deutschen Patentanmeldung mit 
dem amtlichen Aktenzeichen 19615693.9 beschrieben. 

20 In Fig. 4 ist in einem Ablauf diagramm das Verfahren in seinen 
Verf ahrensschritten dargestellt. Das Eingabesignal ES wird 
analysiert, wobei mit dem Eingabesignal ES beschrieben wird, 
welche Art von Spracherkennung und/oder welche Art von 
Sprachausgabe im weiteren Verfahren benotigt wird 4 01. 

25 

Ferner wird abhangig von dem Eingabesignal ES mindestens ein 
Spracherkennungsmodul Ei und/oder ein Sprachausgabemodul Aj 
aktiviert 402. 

30 In einem letzten Schritt 403 wird in mindestens einen der 

Spracherkennungsmodule und/oder der Sprachausgabemodule die 
jeweilige Spracherkennung bzw. Sprachausgabe durchgefiihrt. 

Ferner ist es in einer Weiterbildung vorgesehen, gemeinsame 
35 Vorverarbeitungsschritte oder auch gemeinsame Telle von Algo- 
rithmen, die gemeinsam in verschiedenen Verfahren zur Spra- 



cherkennung gleichzeitig verwendet werden, in einem separaten 
Vorverarbeitungsmodul W durchzuf tihren. 

In der gemeinsamen Vorverarbeitung z. B. in mindestens einem 
Vorverarbeitungsmodul W konnen beispielsweise eine akusti- 
sche Vorverarbeitung oder eine sog. Abstandsberechnung der 
untersuchten Teile des Sprachsignals realisiert werden. 

Ferner ist es in einer Weiterbildung vorteilhaft, Ressourcen 
gemeinsam zu nutzen, beispielsweise in einer Weise, dafi ein 
Lexikon von mehreren Spracherkennungsmodulen Ei gemeinsam 
verwendet wird. Dies ist beispielsweise moglich, indem ein 
Lexikon zur Erkennung fliefiend gesprochener Sprache u. a. die 
Worte "Ja" und "Nein" enthalt, wodurch es moglich ist, dafl 
auch ein Schltisselwort-Erkenner (Keyword-Spotter) auf die Be- 
griffe "Ja" und "Nein" zur Durchfiihrung der Spracherkennung 
in diesem Fall auf dasselbe Lexikon zugreifen kann. 

Auch eine gemeinsame Nutzung von Ressoucen bei der Nachbear- 
beitung sind sowohl bei dem Verfahren als auch mit einem 
Nachbearbeitungsmodul bei dem Sprachverarbeitungssystem als 
eine Ausgestaltung vorgesehen. 

Sowohl das Sprachverarbeitungssystem als auch das Verfahren 
zur Sprachverarbeitung kann sehr vorteilhaft sowohl in der 
Spracherkennung und in der Sprachausgabe sowie in der Durch- 
fiihrung eines Dialogs mit einem Benutzer B als auch zur Er- 
stellung von Sprachdialogsystemen verwendet werden, da eine 
sehr einfache Zusammenstellung der anwendungsspezif ischen 
Kombinationen von Spracherkennungsmodulen und/oder Sprachaus- 
gabemodulen moglich ist- 
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Patentansprttche 

1 . Sprachverarbeitungssystem, 

- mit mehreren Spracherkennungsmodulen (Ei, i=l..n) und/oder 
Sprachausgabemodulen (Aj, j=l..m), die jeweils filr eine vor- 
gebbare Art einer Spracherkennung und/oder einer Sprachausga- 
be vorgesehen sind, und 

- mit einem Mittel (MA) zur Auswahl mindestens eines Spra- 
cherkennungsmoduls (Ei) und/oder Sprachausgabemoduls (Aj ) flir 
eine im weiteren durchzuftihrende Spracherkennung und/oder 
Sprachausgabe, abhangig von einem Eingabesignal (ES) , mit dem 
beschrieben wird, welche Art von Spracherkennung und/oder 
Sprachausgabe im weiteren benotigt wird. 

2. Sprachverarbeitungssystem nach Anspruch 1, 

bei dem das Mittel (MA) zur Auswahl des Spracherkennungsmo- 
duls (Ei) und/oder des Sprachausgabemoduls (Aj ) derart ausge- 
staltet ist, daii das Spracherkennungsmodul (Ei) und/oder das 
Sprachausgabemodul (Aj ) von dem Mittel (MA) gesteuert wird. 

3. Sprachverarbeitungssystem nach Anspruch 1 oder 2, 

bei dem Teile von dem Spracherkennungsmodul (Ei) und/oder dem 
Sprachausgabemodul (Aj ) , die gemeinsam verwendet werden, in 
mindestens einem Vorverarbeitungsmodul (W) und/oder in min- 
destens einem Nachbearbeitungsmodul realisiert sind, 

4. Sprachverarbeitungssystem nach Anspruch 3, 

bei dem mehrere Spracherkennungsmodule (Ei) und/oder Sprach- 
ausgabemodule (Aj ) gemeinsame Ressourcen verwenden. 

5. Sprachverarbeitungssystem nach einem der Anspriiche 1 bis 

bei dem eine Dialogablauf steuerung (DA) vorgesehen ist/ mit 
der ein Dialog des Sprachverarbeitungssystems mit einem Be- 
nutzer (B) des Sprachverarbeitungssystems realisiert wird. 
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6. Sprachverarbeitungssystem nach einem der Anspruche 1 bis 
5, 

bei dem das Eingabesignal (ES) von der Dialogablauf steuerung 
(DA) erzeugt wird. 

5 

7. Sprachverarbeitungssystem nach einem der Anspruche 1 bis 

6, . 

— bei dem das Spracherkennungsmodul (Ei) mindestens zur 
Durchfuhrung einer der folgenden Arten der Spracherkennung 

10 ausgebildet ist: 

— Einzelzif f ererkennung, 

— Erkennung von Zif f ernketten, 

— Erkennung von Wortern aus einem begrenzten Vokabular, 

— Erkennung eines Einzelwortes mit einem unbegrenzten Voka- 
15 bular, 

— Erkennung flieflend gesprochener Sprache mit einem unbe- 
grenzten Vokabular, 

— Erkennung von vorgegebenen Wortkombinationen, 

— Schliisselwort-Erkennung, 
20 — Alphabet erkennung, 

— Lautfolgenerkennung, 

— Sprechererkennung, 

— DTMF-Erkennung, 
und/oder 

25 - bei dem das Sprachausgabemodul (Aj ) mindestens zur Durch- 

fiihrung einer der folgenden Arten der Sprachausgabe ausgebil- 
det ist: 

— Ausgabe vorgegebener , gespeicherter Sprachkonserven, 

— Ausgabe zusammengesetzter einzelner vorgegebener, gespei- 
30 cherter Sprachkonserven, 

— Ausgabe von aus gespeicherten Phonemen synthetisierten 
Worten, 

— Ausgabe von DTMF-Tonen. 

35 8. Verfahren zur Sprachverarbeitung, 
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- bei dem ein Eingabesignal (ES) analysiert wird (401), mit 
dem beschrieben wird, welche Art von Spracherkennung und/oder 
Sprachausgabe im weiteren benotigt wird, 

- bei dem abhangig von dem Eingabesignal (ES) mindestens ein 
5 Spracherkennungsmodul (Ei) und/oder mindestens ein Sprachaus- 

gabemodul (Aj ) , die jeweils fur eine vorgebbare Art einer 
Spracherkennung und/oder einer Sprachausgabe vorgesehen sind, 
aktiviert wird (4Q2), und 

- bei dem mit dem ausgewahlten Spracherkennungsmodul und/oder 
10 dem Sprachausgabemodul die jeweilige Art der Spracherkennung 

und/oder der Sprachausgabe durchgeftthrt wird (403) . 

9. Verfahren nach Anspruch 8, 

bei dem vor der Spracherkennung eine Vorverarbeitung (W) des 
15 zu erkennenden Sprachsignals erfolgt. 

10. Verfahren nach Anspruch 8 oder 9, 

bei dem nach der Spracherkennung eine Nachbearbeitung des er- 
kannten Sprachsignals erfolgt • 
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Zusammenf assung 

Sprachverarbeitungssystem und Verfahren zur Sprachverarbei- 
tung 

5 

Ein Sprachverarbeitungssystem weist eine beliebige Anzahl von 
Spracherkennungsmodulen (Ei, i = 1. .n) und Sprachausgabemodu- 
len (Aj, j = l..m) auf. Die jeweils fur eine bestimmte Art 
der Spracherkennung bzw. Sprachausgabe vorgesehenen Module 
10 werden je nach Anwendungssituation abhangig von einem Einga- 
besignal (ES) von einem Mittel (MA) zur Auswahl der Module 
ausgewahlt und aktiviert und parametrisiert, so dafi die aus- 
gewahlten Module entsprechend ihrer Ausgestaltung zur Spra- 
cherkennung bzw, Sprachausgabe verwendet werden. 

15 
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